在基于学术和行业的研究中,在线评估方法都被视为推荐系统等交互式应用程序的黄金标准。自然,这样做的原因是,我们可以直接测量依赖干预措施的实用程序指标,这是向用户显示的建议。然而,由于多种原因,在线评估方法是昂贵的,并且对于可靠的离线评估程序仍然存在明确的需求。在行业中,离线指标通常被用作一线评估,以生成有前途的候选模型来在线评估。在学术工作中,对在线系统的有限访问使离线指标是验证新方法的事实上的方法。存在两个类别的离线指标:基于代理的方法和反事实方法。头等舱通常与我们关心的在线指标相关,而后一类仅根据在现实世界中无法实现的假设提供理论保证。在这里,我们表明基于模拟的比较为离线指标提供了前进的方向,并认为它们是可取的评估手段。
translated by 谷歌翻译